文書の全てをSGML化する必要はないので、SGMLを適用する文書を選定することが必要である。共有すべき情報は基本的に対象とすることが望ましい。まず、組織の中で使われている文書を整理し、その用途や作成量、保管の有無や検索の頻度、文書そのものの重要度などの視点から、その文書をSGML化するかを決定することから始まる。先に述べた様に、SGML化することにより、その効果が大きいものという点から優先度が決められていくことが多いとされている。
次に、キーボード入力やOCR入力などから文書情報を電子化することになる。ただし、この作業はDTDが準備されていればSGMLのツールを用いて行うことも可能となってくる。又、既存のアプリケーションで作成したデータやPDFファイルのデータがあれば、コンバートすることで新たな入力は必要無くなる可能性もある。
?A タグの付与とDTDの作成
次に、SGML化の対象となった文書の構造を分解する。標準的な形式として、文書は日付、作成者、タイトル、配付先、保管の有無等の区分といった項目が文頭に記載される。そして本文では、注釈や見出し、注記などの文書の構造も区別する。それら文書構造のパターン化を試みることでDTDを形成していくことになる。
一般にDTDの形成は一回で出来るものでは無く、様々なパターンを検討してひとつ、もしくはいくつかに集約されていくようである。
並行して各文書中にタグを付与していく。タグは文章をマークアップするものであるから、文の形式的な切れ目や、段落による意味の切れ目に入れることが多い。一般に、文頭のタグづけは比較的決定しやすいが、本文に関してはタグづけのルールをよく検討する必要があるだろう。
現在ではSGMLエディターの中には、ほぼ自動的にタグを付与する機能をもっているものも多い。さらに、SGMLパーサーなどのツールを使えばある程度自動的に既存の電子ファイルにタグを付与出来るとされている。
これらを基にSGML宣言を行うことになる。SGML宣言とは、コードや最大文字数制限などの基準を定義したものである。
?B 文書構造の分析を通じたDTDの整理
こうして、多様な文書に対しての多くのDTDが作成されていくが、DTDが異なれば
前ページ 目次へ 次ページ